智能论文笔记

我们重新求解用于时变线性回归的模型，该模型假定根据线性动力系统演变的未知参数。违反直接来看，我们表明，当潜在的动态稳定时，可以通过组合两个普通的最小二乘估计来估计该模型的参数。我们提供了在我们方法的估计误差上提供了有限的样本保证，并讨论了它过度期望 - 最大化（EM）的某些优势，这是事先工作提出的主要方法。

translated by 谷歌翻译

FlexLip: A Controllable Text-to-Lip System

Dan Oneata , Beata Lorincz , Adriana Stan , Horia Cucu

分类：人工智能

2022-06-07

将文本输入转换为视频内容的任务已成为合成媒体生成的重要主题。已经提出了几种方法，其中一些方法在受限的任务中达到了近距离表现。在本文中，我们通过将文本转换为唇部标记来解决文本到视频生成问题的次要发音。但是，我们使用模块化，可控的系统体系结构进行此操作，并评估其每个组件。我们的标题名为Flexlip的系统分为两个单独的模块：文本到语音和语音到唇，都具有基本可控的深神经网络体系结构。这种模块化可以轻松替换其每个组件，同时还可以通过解开或投影输入功能来快速适应新的扬声器身份。我们表明，通过仅将数据的数据用于音频生成组件，而对于语音到唇部分量的5分钟，生成的唇部标记的客观度量与使用较大较大的唇部标记相当一组训练样本。我们还通过考虑数据和系统配置的几个方面，对系统的完整流进行了一系列客观评估措施。这些方面与培训数据的质量和数量有关，使用预审计的模型以及其中包含的数据以及目标扬声器的身份；关于后者，我们表明我们可以通过简单地更新模型中的嘴唇形状来对看不见的身份进行零拍的唇部适应。

translated by 谷歌翻译

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译